图像分类模型可以取决于图像的多个不同语义属性。对分类器的决定的说明需要对这些属性进行发现和可视化这些属性。在这里,我们通过训练生成模型来具体解释基于分类器决策的多个属性来实现这一点的样式x。此类属性的自然来源是样式语的风格,已知在图像中生成语义有意义的维度。但是,由于标准GaN训练不依赖于分类器,所以它可能不代表对分类器决定很重要的这些属性,并且风格的尺寸可以表示无关属性。为了克服这一点,我们提出了一种培训程序,该培训程序包括分类器模型,以便学习特定于分类器的风格。然后从该空间中选择解释性属性。这些可用于可视化每个图像改变多个属性的效果,从而提供特定于图像的解释。我们将风格x应用于多个域,包括动物,叶子,面和视网膜图像。为此,我们展示了如何以不同方式修改图像以改变其分类器输出。我们的结果表明,该方法发现与语义上保持良好的属性,生成有意义的图像特定的解释,并且是在用户研究中测量的人为解释。
translated by 谷歌翻译
We wish to automatically predict the "speediness" of moving objects in videos-whether they move faster, at, or slower than their "natural" speed. The core component in our approach is SpeedNet-a novel deep network trained to detect if a video is playing at normal rate, or if it is sped up. SpeedNet is trained on a large corpus of natural videos in a self-supervised manner, without requiring any manual annotations. We show how this single, binary classification network can be used to detect arbitrary rates of speediness of objects. We demonstrate prediction results by Speed-Net on a wide range of videos containing complex natural motions, and examine the visual cues it utilizes for making those predictions. Importantly, we show that through predicting the speed of videos, the model learns a powerful and meaningful space-time representation that goes beyond simple motion cues. We demonstrate how those learned features can boost the performance of self-supervised action recognition, and can be used for video retrieval. Furthermore, we also apply SpeedNet for generating time-varying, adaptive video speedups, which can allow viewers to watch videos faster, but with less of the jittery, unnatural motions typical to videos that are sped up uniformly.
translated by 谷歌翻译
The use of needles to access sites within organs is fundamental to many interventional medical procedures both for diagnosis and treatment. Safe and accurate navigation of a needle through living tissue to an intra-tissue target is currently often challenging or infeasible due to the presence of anatomical obstacles in the tissue, high levels of uncertainty, and natural tissue motion (e.g., due to breathing). Medical robots capable of automating needle-based procedures in vivo have the potential to overcome these challenges and enable an enhanced level of patient care and safety. In this paper, we show the first medical robot that autonomously navigates a needle inside living tissue around anatomical obstacles to an intra-tissue target. Our system leverages an aiming device and a laser-patterned highly flexible steerable needle, a type of needle capable of maneuvering along curvilinear trajectories to avoid obstacles. The autonomous robot accounts for anatomical obstacles and uncertainty in living tissue/needle interaction with replanning and control and accounts for respiratory motion by defining safe insertion time windows during the breathing cycle. We apply the system to lung biopsy, which is critical in the diagnosis of lung cancer, the leading cause of cancer-related death in the United States. We demonstrate successful performance of our system in multiple in vivo porcine studies and also demonstrate that our approach leveraging autonomous needle steering outperforms a standard manual clinical technique for lung nodule access.
translated by 谷歌翻译
与传统的机器人手不同,由于固有的不确定性,兼容的手不足的手对模型的挑战。因此,通常基于视觉感知执行抓握对象的姿势估计。但是,在闭塞或部分占地环境中,对手和物体的视觉感知可以受到限制。在本文中,我们旨在探索触觉的使用,即动力学和触觉感测,以构成姿势估计和手动操纵,手工不足。这种触觉方法会减轻并非总是可用的视线。我们强调识别系统的特征状态表示,该状态表示不包括视觉,可以通过简单和低成本的硬件获得。因此,对于触觉传感,我们提出了一个低成本和灵活的传感器,该传感器主要是与指尖一起打印的3D,并可以提供隐式的接触信息。我们将双手手动的手作为测试案例不足,我们分析了动力学和触觉特征以及各种回归模型对预测准确性的贡献。此外,我们提出了一种模型预测控制(MPC)方法,该方法利用姿势估计将对象操纵为仅基于触觉的所需状态。我们进行了一系列实验,以验证具有不同几何形状,刚度和纹理的各种物体的姿势的能力,并以相对较高的精度显示工作空间中的目标。
translated by 谷歌翻译
在执行各种任务时,对象识别是必不可少的功能。人类自然使用视觉和触觉感知来提取对象类和属性。但是,机器人的典型方法需要复杂的视觉系统或多个高密度触觉传感器,这可能非常昂贵。此外,它们通常需要通过直接交互从真实对象中实际收集大型数据集。在本文中,我们提出了一种基于动力学的对象识别方法,该方法可以用任何多指的机器人手来执行,其中运动学是已知的。该方法不需要触觉传感器,并且基于观察对象的掌握。我们利用grasps的独特和框​​架不变的参数化来学习对象形状的实例。为了培训分类器,培训数据是在计算过程中快速而仅生成的,而无需与真实对象相互作用。然后,我们提出和比较可以集成任何受过训练的分类器的两种迭代算法之间。分类器和算法独立于任何特定的机器人手,因此可以在各种机器人手上施加。我们在实验中表明,算法很少有GRASP获得准确的分类。此外,我们表明对象识别方法可扩展到各种大小的对象。同样,对全局分类器进行了训练,可以识别一般几何形状(例如,椭圆形或盒子),而不是特定的几何形状,并在大型对象上进行了证明。提供了完整的实验和分析以显示该方法的性能。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
在不同的情况下,需要计算和定位图像中的重复对象,例如生物学显微镜研究,生产线检查和监测记录分析。在大型类特定数据集接受训练时,使用监督的束缚神经网络(CNNS)实现了精确的对象检测。当需要在唯一对象类的图像中需要计数时,这种方法中的标签努力不会降低。假设没有预先训练的分类器可用,我们介绍了一种计数和本地化重复对象的新方法。我们的方法在很少有效地学习迭代中仔细收集一小组标签上的CNN。在每次迭代时,分析网络的潜在空间以提取最小数量的用户查询,以尽可能彻底地彻底地样本的歧管以及避免冗余标签。与现有用户辅助计数方法相比,我们的主动学习迭代在计数和定位准确性方面实现最先进的性能,用户鼠标点击数和运行时间。通过大型用户研究进行该评估,这些评估在各种图像类别上进行,具有不同的照明和闭塞条件。
translated by 谷歌翻译
我们在本文中研究了从多层神经网络中得出的模型的概括误差,在层中层的大小与训练数据中的样本数量相称的状态下。我们表明,在此制度中,无偏估计器对于此类非线性网络具有不可接受的性能。在线性回归和两层网络的情况下,我们得出了一般偏置估计量的显式概括下限。在线性情况下,界限渐近紧。在非线性情况下,我们将边界与随机梯度下降算法的经验研究提供了比较。该分析使用大型随机矩阵理论中的元素。
translated by 谷歌翻译